Комбинаторный подход к оценке качества обучаемых алгоритмов

Abstract

The combinatorial theory of machine learning is developed that extends the famous Vapnik-Chervonenkis statistical theory and allows to obtain a new kind of generalization bounds. Combinatorial bounds of cross-validation functionals require no probabilistic assumptions, even no i.i.d. hypothesis. The postulate of uniform convergence also turns out to be redundant. Combinatorial approach allows to more accurately describe the learning process itself and to reveal the effect of algorithms space localization: when a target function is fixed, most learning procedures generate algorithms (functions, concepts) from a small part of algorithms space. Thus the complexity of overall space may have nothing to do with generalization. A new notion of local growth function is introduced to describe this phenomenon. Then a general causes of complexity-based bounds weakness are considered. A new bounds are obtained that do not depend of space complexity but require a priory knowledge about target function. Two types of additional information are considered: compactness of classes and monotonicity or almost-monotonicity of the target function.

Обзор современных исследований по проблеме качества обучения алгоритмов

Вопрос о качестве алгоритмов, синтезированных по конечным выборкам прецедентов, является фундаментальной проблемой теории обучаемых систем (machine learning theory).

В общем случае задача обучения по прецедентам заключается в том, чтобы по заданной выборке пар «объект-ответ» восстановить функциональную зависимость между объектами и ответами, то есть построить алгоритм, способный выдавать адекватные ответы на предъявляемые объекты. Когда множество допустимых ответов конечно, говорят о задачах классификации или распознавания образов. Когда множество допустимых ответов бесконечно, например, является множеством действительных чисел или векторов, говорят о задачах восстановления регрессии. Когда объекты соответствуют моментам времени, а ответы характеризуют будущее поведение процесса или явления, говорят о задачах прогнозирования.

Значительный опыт решения прикладных задач распознавания, восстановления регрессии и прогнозирования был накоплен уже к середине 60-х годов. Большую популярность приобрёл подход, основанный на построении модели восстанавливаемой зависимости в виде параметрического семейства алгоритмов. С помощью численной оптимизации в семействе выбирался алгоритм, допускающий наименьшее число ошибок на заданной обучающей выборке. Проще говоря, осуществлялась подгонка (fitting) модели под выборку. Этот метод получил название минимизации эмпирического риска.

На практике исследователи столкнулись с проблемой переобучения (overfitting). Чем больше у алгоритма свободных параметров, тем меньшего числа ошибок на обучении можно добиться путём оптимизации. Однако по мере нарастания сложности модели «оптимальные» алгоритмы начинают слишком хорошо подстраиваться под конкретные данные, улавливая не только черты восстанавливаемой зависимости, но и ошибки измерения обучающей выборки, и погрешность самой модели. В результате ухудшается качество работы алгоритма вне обучающей выборки, или, как говорят, его способность к обобщению (generalization performance).

Из этого наблюдения был сделан вывод, что для всякой задачи существует оптимальная сложность модели, при которой достигается наилучшее качество обобщения. Первое формальное обоснование этого практического опыта было дано в статистической теории восстановления зависимостей по эмпирическим данным, разработанной В. Н. Вапником и А. Я. Червоненкисом в конце 60-х — начале 70-х [2, 3].

Статистическая теория Вапника-Червоненкиса. Обобщающая способность определяется как вероятность ошибки алгоритма, полученного в результате обучения, либо как частота его ошибок на некоторой независимой и, вообще говоря, неизвестной контрольной выборке. Далее вводится подходящая мера сложности семейств алгоритмов, называемая ёмкостью или размерностью Вапника-Червоненкиса (VC-dimension). Основным результатом теории являются количественные оценки, показывающие, что качество получаемых алгоритмов улучшается с ростом длины обучающей выборки и уменьшением частоты ошибок на обучении, но ухудшается при увеличении сложности семейства. Эти оценки позволяют обосновать метод структурной минимизации риска (СМР), непосредственно направленный на выбор модели оптимальной сложности. В СМР фиксируется некоторая структура вложенных подсемейств различной сложности, затем в каждом подсемействе решается задача обучения по прецедентам, и из полученных алгоритмов выбирается тот, для которого оценка качества принимает наилучшее значение. Более подробно основные положения статистической теории излагаются в разделе 3.

К сожалению, оценки Вапника-Червоненкиса сильно завышены, что приводит к требованию слишком длинных обучающих выборок (105—106 объектов), а в методе структурной минимизации риска — к чрезмерному упрощению алгоритмов [61]. Некоторые семейства имеют бесконечную ёмкость и находятся за границами применимости теории, тем не менее с их помощью удаётся решать прикладные задачи, и довольно успешно. В частности, это относится к метрическим методам, основанным на явном хранении обучающей выборки, таким как метод ближайших соседей, а также к методам алгебраического подхода [10, 11, 12, 13], гарантирующим безошибочное распознавание заданной выборки. На практике качество обучения почти всегда оказывается существенно лучше, чем предсказывает статистическая теория.

Причина завышенности статистических оценок кроется в их слишком большой общности. Они справедливы при любом распределении вероятностей и любой восстанавливаемой зависимости, следовательно, ориентированы на «худший случай». Они не учитывают важных особенностей самой задачи и процесса поиска её решения, благодаря которым «эффективная» сложность подмножества алгоритмов, реально используемого в данной конкретной задаче, может оказаться существенно меньше сложности всего семейства.

Во-первых, это особенности распределения объектов в пространстве — они могут лежать в подпространстве меньшей размерности. В задачах восстановления зависимостей этот случай является типичным, поскольку наличие зависимых или почти зависимых признаков является скорее правилом, чем исключением.

Во-вторых, это особенности самой восстанавливаемой зависимости — она может быть гладкой, симметричной, монотонной или обладать другими специальными свойствами, что резко сужает пространство поиска решения.

В-третьих, это особенности метода обучения — он может обладать способностью подстраиваться под задачу, выдавая алгоритмы, в некотором смысле похожие на восстанавливаемую зависимость. Различные методы обучения в неравной степени обладают способностью локализовать «эффективное» подсемейство алгоритмов.

Появление статистической теории вызвало большое количество исследований, направленных на уточнение оценок. Однако проблема получения численных оценок, непосредственно применимых на практике, оказалась вызывающе трудной, и до сих пор остаётся открытой.

Далее будут перечислены некоторые направления современных исследований по проблемам обоснования обучаемых алгоритмов и получения оценок качества обучения. Разумеется, предлагаемая классификация весьма условна и не претендует на полноту.

Эффективная сложность. При решении конкретной задачи далеко не каждый алгоритм из выбранного семейства имеет шансы быть полученным в результате обучения. Как правило, реально работает не всё семейство, а лишь небольшая его часть. Этот факт был замечен ещё В. Н. Вапником, предложившим понятие эффективной ёмкости вместе с алгоритмом её практического измерения [87, 38]. Эффективная ёмкость не превосходит полной ёмкости семейства и зависит от выборки. Она учитывает особенности исходного распределения объектов, но не принимает во внимание особенностей восстанавливаемой зависимости и метода обучения. В дальнейшем концепция оценок, зависящих от данных (data dependent bounds), получила развитие во многих работах, см. например, [81, 90, 39, 40, 32].

К этому направлению примыкают также работы В. Л. Матросова, который впервые показал, что при специальном выборе метода обучения возможно обеспечить корректное распознавание любой заданной обучающей выборки, пользуясь подмножеством алгоритмов ограниченной ёмкости [15, 16, 17]. При этом построение алгоритма проводится в алгебраическом расширении семейства алгоритмов вычисления оценок (АВО) [13]. В отличие от стандартного подхода, здесь существенно используются свойства метода обучения, но не учитываются особенности распределения объектов и восстанавливаемой зависимости.

Статья [89] содержит исторический обзор, отражающий процесс постепенного уточнения оценок Вапника-Червоненкиса. Отмечается, что наилучшая оценка, справедливая при самых общих предположениях, получена М. Талаграндом [85]. На её основе выводится новая, несколько более точная, оценка, справедливая при некотором «разумном» ограничении класса вероятностных распределений на множестве исходных объектов.

При использовании оценок, зависящих от данных, метод структурной минимизации риска трансформируется и приводит к построению самоограничивающих алгоритмов (self bounding learning algorithms) [57]. От исходного СМР они отличаются тем, что структура вложенных подсемейств не задаётся заранее, а формируется в процессе обучения. В этом случае оценки качества учитывают все три типа особенностей, упомянутых выше. Результатом обучения является не только сам алгоритм, но и оценка его обобщающей способности. Такая оценка уже не выписывается явно в виде формулы, а вычисляется по ходу построения алгоритма. Наличие оценки качества на каждом промежуточном шаге позволяет эффективно управлять процессом обучения.

Принцип самоограничения алгоритмов применяется также для обоснования стандартных методов построения решающих деревьев [76]. Эти методы основаны на аналогичной стратегии — в ходе построения алгоритма по обучающей выборке происходит последовательное сужение подсемейства алгоритмов, в котором ведётся поиск решения [67].

Граничность объектов. Второе направление связано с понятием отступа или маржи (margin) в задачах классификации с пороговым решающим правилом. Несколько упрощая, можно сказать, что отступ — это расстояние от объекта до границы классов. Если объект относится алгоритмом к чужому классу, то его отступ отрицателен. Чем больше в обучающей выборке объектов с большим отступом, тем лучше разделяются классы, тем надёжнее может быть классификация. Идея уточнения оценок качества заключается в том, чтобы сравнивать вероятность ошибки не с частотой ошибок на обучении, а с долей обучающих объектов, имеющих отрицательный или малый положительный отступ. При этом величина эмпирического риска искусственно завышается, зато вероятность ошибки существенно более точно оценивается по объектам, далеко отстоящим от границы классов.

Подход, основанный на понятии отступа, оказался особенно плодотворным при исследовании линейных пороговых классификаторов, в частности, машин опорных векторов (support vectors machines, SVM) [46, 84] и методов взвешенного голосования [34], о которых пойдёт речь чуть ниже. Он также позволяет обосновать алгоритмы, использующие метрику (функцию расстояния) в пространстве объектов, если предположить, что разделяющая поверхность проходит на достаточном удалении от обучающих объектов [36].

Наиболее ярким конструктивным результатом данного подхода являются методы обучения, направленные на явную максимизацию отступа. Они позволяют строить алгоритмы с лучшей обобщающей способностью, что подтверждается теоретически и экспериментально [69].

С понятием отступа тесно связана ещё одна мера сложности семейства алгоритмов, альтернативная функции роста — fat-размерность (fat-shattering dimension) [63, 33, 29, 32].

Композиционная структура алгоритмов. Третье направление исследований связано с понятием композиции алгоритмов. Во многих прикладных задачах удаётся построить несколько различных алгоритмов, ни один из которых не восстанавливает искомую зависимость достаточно хорошо. Тогда имеет смысл объединить эти алгоритмы с помощью корректирующей операции, в надежде на то, что недостатки одних алгоритмов будут скомпенсированы достоинствами других, и качество композиции окажется лучше, чем качество каждого из базовых алгоритмов в отдельности.

Известно много способов конструирования алгоритмических композиций.

Наиболее общая теория алгоритмических композиций разработана в алгебраическом подходе к построению корректных алгоритмов, предложенном академиком РАН Ю. И. Журавлёвым и активно развиваемом его учениками [10, 11, 12, 13, 9, 25, 6].

В методе Л. А. Растригина пространство объектов разбивается на области компетентности, и для каждой области строится свой алгоритм [18]. Затем эти алгоритмы «склеиваются». Качество такой конструкции определяется качеством отдельных алгоритмов.

Раньше других стали применяться простые процедуры голосования (по большинству, по старшинству, и другие), не имеющие собственных параметров для настройки. Ввиду существенной дискретности они используются, главным образом, при решении задач классификации. Более общая процедура взвешенного голосования (weighted voting) строит выпуклую комбинацию алгоритмов — линейную комбинацию с неотрицательными нормированными весами. Эта процедура обладает существенно большей гибкостью, и её применяют как для классификации, так и для восстановления регрессии. Многие широко известные алгоритмические конструкции явно или не явно используют принцип взвешенного голосования, в частности, нейронные сети, потенциальные функции [1], алгоритмы вычисления оценок [13], и другие.

В работе П. Бартлетта [34] впервые было показано, что эффективная сложность выпуклой комбинации классификаторов равна не суммарной, и даже не максимальной, как ранее предполагалось, а средней взвешенной сложности отдельных классификаторов, взятых с теми же весами, с которыми они входят в комбинацию. Иными словами, взвешенное голосование не увеличивает сложность алгоритма, а лишь сглаживает прогнозы базовых классификаторов. Вытекающие отсюда оценки обобщающей способности существенно точнее классических сложностных оценок Вапника-Червоненкиса, хотя и они всё ещё сильно завышены (требуемая длина обучения имеет порядок 104—105). Этот результат обосновывает ряд эвристических приёмов, направленных на уменьшение весов при настройке нейронных сетей, таких как сокращение весов (weight decay) и ранний останов (early stopping).

Результаты, первоначально полученные для линейных комбинаций, оказались применимы и к более широкому классу алгоритмов. В частности, бинарные решающие деревья и дизъюнктивные нормальные формы допускают представление в виде выпуклой комбинации булевых функций с пороговым решающим правилом [58]. Получены оценки обобщающей способности и для более сложных алгоритмических композиций, представимых в виде пороговых выпуклых комбинаций над пороговыми выпуклыми комбинациями. Примерами таких конструкций являются сигмоидальные нейросети с одним скрытым уровнем и взвешенное голосование решающих деревьев [70]. Для всех этих случаев оценки обобщающей способности выражаются через долю обучающих объектов с малым отступом.

Для успешной коррекции необходимо, чтобы базовые алгоритмы достаточно сильно различались. Если алгоритмы строятся независимо друг от друга, возникает опасность, что некоторые из них окажутся одинаковыми или почти одинаковыми. Существуют специальные техники, направленные на увеличение различий между базовыми алгоритмами.

В методе баггинга (bagging — сокращение от «bootstrap aggregation»), предложенном Л. Брейманом [43, 44, 45], производится взвешенное голосование базовых алгоритмов, обученных на различных подвыборках данных, либо на различных частях признакового описания объектов. Выделение подмножеств объектов и/или признаков производится, как правило, случайным образом.

Метод бустинга (boosting) Р. Френда и И. Шапира [56, 53, 80] также является разновидностью взвешенного голосования, но базовые алгоритмы строятся последовательно, и процесс увеличения различий между ними управляется детерминированным образом. А именно, для каждого базового алгоритма, начиная со второго, веса обучающих объектов пересчитываются так, чтобы он точнее настраивался на тех объектах, на которых чаще ошибались все предыдущие алгоритмы. Веса алгоритмов также вычисляются исходя из числа допущенных ими ошибок.

Идея последовательной компенсации ошибок предыдущих алгоритмов реализована также в оптимизационных (проблемно-ориентированных) методах алгебраического подхода [19, 5, 5]. В отличие от бустинга, здесь используется не выпуклая комбинация, а более сложная корректирующая операция в виде нелинейной монотонной функции достаточно общего вида. Монотонность можно рассматривать как обобщение выпуклости: любая выпуклая корректирующая операция является монотонной, обратное в общем случае неверно. При выпуклой коррекции вес каждого базового алгоритма остается постоянным на всем пространстве объектов, что представляется не вполне обоснованной эвристикой. Монотонная коррекция обладает существенно более богатыми возможностями для настройки. С другой стороны, для монотонных корректирующих операций, как для более широкого семейства функций, существенно выше опасность переобучения.

Обобщающая способность бустинга исследована, пожалуй, наиболее хорошо. Во многих случаях экспериментально наблюдается почти неограниченное улучшение качества обучения при наращивании числа алгоритмов в композиции [54]. Более того, качество на тестовой выборке может продолжать улучшаться даже после достижения безошибочного распознавания обучающей выборки. Эти наблюдения противоречат непосредственным выводам статистической теории, основанным на анализе сложности.

Существует несколько объяснений феноменов бустинга. С одной стороны, бу-стинг активно максимизирует отступы обучающих объектов, и продолжает «раздвигать классы» даже после достижения корректности на обучении [79]. С другой стороны, бустинг строит выпуклую комбинацию вещественнозначных классификаторов, которая проявляет свойство стабильности (см. ниже) [52].

Имеется много работ по сравнительному анализу обобщающей способности бу-стинга и баггинга. Баггинг направлен исключительно на уменьшение вариации (variance) модели, в то время как бустинг способствует уменьшению и вариации, и смещения (bias) [55]. Эмпирические исследования [83] на 4 реальных задачах показывают, что бустинг работает лучше на больших обучающих выборках, баггинг — на малых. При увеличении длины выборки бустинг повышает разнообразие классификаторов активнее, чем баггинг. Наконец, бустинг лучше воспроизводит границы классов сложной формы.

Работы Бартлетта, Френда, Шапира и др. решительным образом изменили представления о соотношении качества и сложности. Если ранее считалось, что для надёжного восстановления зависимости необходимо ограничивать сложность используемого семейства алгоритмов, то теперь исследователи приходят к выводу, что семейство может быть сколь угодно сложным, однако первостепенную роль играет метод обучения — тот способ, с помощью которого по обучающей выборке строится алгоритм из выбранного семейства. По всей видимости, некоторые разновидности взвешенного голосования, такие как бустинг, являются «удачными» методами, способными эффективно сужать изначально широкое семейство алгоритмов, подстраивать его под конкретную задачу.

Стабильность. Следующее, четвёртое, направление исследований связано с понятием стабильности (stability) [41, 42, 66]. Метод обучения называется стабильным, если небольшие вариации обучающей выборки, такие как вставка или удаление одного объекта, приводят к незначительным изменениям получаемого алгоритма. Существуют различные способы формального определения стабильности, например, в работе [66] вводится 12 различных определений и устанавливаются взаимосвязи между ними. Как правило, оценки качества стабильных методов не зависят от сложностных характеристик семейства. В частности, получены оценки стабильности и обобщающей способности локальных методов типа ближайших соседей и потенциальных функций [78, 49, 50]. Эти методы широко используются благодаря своей простоте, однако порождают семейства алгоритмов бесконечной ёмкости. Доказана стабильность бустинга, машин опорных векторов, методов минимизации эмпирического риска с регуляризирующей штрафной функцией, и некоторых других. К сожалению, численные оценки требуемой длины обучения для стабильных методов также сильно завышены, как сложностные, и дают только качественное обоснование соответствующих алгоритмов.

Концентрация вероятности. Современные исследования таких свойств обучаемых алгоритмов, как эффективная сложность, отступ, композиционная структура и стабильность, существенно опираются на современный математический аппарат, описывающий явление концентрации вероятностной меры (measure concentration). В первых работах Вапника и Червоненкиса для этого использовались классические неравенства Хёфдинга и Берншнейна. Более точные результаты удаётся получать с помощью неравенств Чернова [47], метода ограниченных разностей МакДиарми-да [72] и изопериметрических неравенств Талагранда [85, [86]. Вводное изложение этих математических техник можно найти в обзорах [31].

Скользящий контроль. Ещё одно направление исследований связано с использованием скользящего контроля (cross-validation) [51 ,[65].

Процедура скользящего контроля заключается в следующем. Фиксируется некоторое множество разбиений исходной выборки на две части: обучающую и контрольную. Для каждого разбиения выполняется настройка алгоритма по обучающей под-выборке и вычисляется частота его ошибок на контрольной подвыборке. Оценка скользящего контроля определяется как средняя по всем разбиениям частота ошибок на контроле. Фактически, скользящий контроль непосредственно измеряет обобщающую способность метода обучения на заданной конечной выборке.

В зависимости от способа формирования множества разбиений различают несколько разновидностей скользящего контроля [65]. Если множество разбиений одноэлементно, говорят об оценке качества на отдельной тестовой выборке (hold-out estimate). Если используются все разбиения с контрольной выборкой единичной длины, то говорят об оценке с одним отделяемым объектом (leave-one-out estimate, LOO). Если используются все разбиения с контрольной выборкой фиксированной, но не обязательно единичной, длины, то говорят об оценке полного скользящего контроля (complete cross-validation) [74]. Если генерируется случайное подмножество разбиений с контрольной выборкой фиксированной длины, то говорят о бутстреп-оценке (bootstrap estimate) [28]. Если множество разбиений образуется k непересекающи-мися контрольными выборками, в объединении дающими всю исходную выборку, то говорят о k-кратном скользящем контроле (k-fold cross-validation).

Несмотря на известную громоздкость, в некоторых случаях техника скользящего контроля непосредственно приводит к простым изящным результатам. В частности, для машин опорных векторов доказано, что LOO не превосходит доли опорных векторов во всей выборке. В силу несмещённости LOO отсюда немедленно вытекает, что вероятность ошибки не превосходит математического ожидания доли опорных векторов [48]. На практике частота ошибок на контроле часто оказывается ещё в несколько раз меньше.

При исследовании локальных методов обучения использование функционала LOO становится естественной «вынужденной мерой» из-за очевидной смещённости эмпирического риска. В частности, для метода первого ближайшего соседа частота ошибок на обучении всегда равна нулю. Начиная с работ Девроя, Роджерса, Вагнера [78, 49, 50] функционал LOO остаётся одним из основных инструментов исследования стабильности методов обучения.

На практике скользящий контроль чаще всего применяется либо для выбора одной модели алгоритмов из нескольких (model selection) [64], либо для оптимизации небольшого числа параметров, определяющих структуру алгоритма, таких, как степень полинома, параметр регуляризации или количество нейронов на скрытом уровне нейронной сети. Считается, что настройка значительной доли параметров по скользящему контролю лишена смысла. Когда контрольная выборка существенно вовлекается в процесс обучения, скользящий контроль начинает выдавать смещённую заниженную оценку обобщающей способности. Причиной является всё та же переподгонка, которая приводит к заниженности эмпирического риска [75]. Известно, что скользящий контроль даёт несмещённую оценку вероятности ошибки в том случае, когда он используется для проверки качества по окончании обучения. Однако до сих пор нет исчерпывающих исследований, показывающих, в какой степени скользящий контроль может использоваться на стадии обучения.

Интуиция подсказывает, что скользящий контроль должен характеризовать обобщающую способность алгоритма лучше, чем частота ошибок на обучении. Тем не менее, этот факт долгое время не удавалось доказать. Попытки предпринимались неоднократно [64, 62, 59], но были получены лишь «разумные» верхние границы (sanity-check bounds) для отклонения скользящего контроля от вероятности ошибок алгоритма. Указанные оценки даже несколько хуже, чем оценки Вапника-Червоненкиса для отклонения эмпирического риска.

Причина этих неудач анализируется в [37], где вводятся и сравниваются два альтернативных способа формализации понятия обобщающей способности. При первом способе, близком к подходу Вапника-Червоненкиса, оценивается качество отдельного алгоритма, полученного в результате обучения. Это приводит к завышенным оценкам, зависящим от ёмкости семейства и требующим дополнительных предположений о стабильности метода обучения [62]. При втором способе оценивается качество метода обучения в целом. Оказывается, в этом случае оценка отклонения скользящего контроля от вероятности ошибки алгоритма, обученного на случайной выборке, не зависит от ёмкости семейства, а только от длины обучения и контроля. Данный результат проясняет природу скользящего контроля и показывает, что завышенность предыдущих оценок связана с неудачным выбором функционала качества.

Отсюда вытекают два важных вывода.

Во-первых, теория качества обучения может оказаться весьма чувствительной к исходной аксиоматике, в частности, к формализации самого понятия качества обучения.

Во-вторых, скользящий контроль характеризует обобщающую способность метода не намного хуже, чем вероятность ошибки. Наиболее точное выражение эти идеи нашли в комбинаторном подходе к обоснованию обучаемых алгоритмов, развиваемом в настоящей работе.

Комбинаторный подход возник как попытка более точного построения статистической теории Вапника-Червоненкиса, начиная с исходных её постулатов. Для этого имелось две основные предпосылки.

Первой предпосылкой было понимание того, что обобщающую способность целесообразно определять как частоту ошибок на конечной контрольной выборке, но не как вероятность ошибки, которая является величиной ненаблюдаемой, и которую невозможно вычислить точно. На практике любая обучаемая система сталкивается только с конечными выборками, будь то обучающие, контрольные или рабочие совокупности объектов. Использование гипотетических вероятностей может приводить (и реально приводит — см. «основную лемму» [3], стр. 219) к лишним промежуточным шагам при доказательстве оценок и понижению их точности.

Второй предпосылкой было понимание того, что принцип минимизации эмпирического риска в заранее заданном семействе алгоритмов не достаточно точно описывает процесс обучения. На практике всегда используется конкретная процедура обучения, которая по заданной обучающей выборке строит единственный алгоритм, совсем не обязательно минимизирующий эмпирический риск.

В комбинаторном подходе явным образом вводится понятие метода обучения, по отношению к которому семейство алгоритмов становится вторичной конструкцией. Это позволяет рассматривать любые методы, а не только минимизацию эмпирического риска. Качество обучения по прецедентам (обобщающая способность метода) характеризуется комбинаторными функционалами, основанными на принципе скользящего контроля, и зависящими только от метода обучения и заданной конечной выборки. В данной работе изучается несколько разновидностей функционала полного скользящего контроля. Соответствующие определения вводятся в разделе 4.

Верхние оценки комбинаторных функционалов аналогичны по своей структуре статистическим, но вместо сложности всего семейства в них фигурирует сложность локального подсемейства, состоящего из алгоритмов, которые могут быть выданы методом обучения в данной конкретной задаче. Наибольший интерес представляет случай, когда локальная сложность оказывается существенно меньше сложности всего семейства.

Комбинаторные оценки, полученные в разделе 5, справедливы для любого метода обучения и любой конечной выборки, не обязательно случайной, независимой, одинаково распределённой. Эти оценки выводятся комбинаторными методами без использования теории вероятностей. Оценки стандартных вероятностных функционалов оказываются непосредственным следствием комбинаторных. Это означает, что при переходе от статистической теории к комбинаторной соблюдается «принцип соответствия», а проблема качества обучения имеет скорее комбинаторную, чем вероятностную природу. Комбинаторная перестройка аксиоматики приводит к пересмотру многих положений статистической теории, некоторые из которых рассматриваются в разделах 7, 8, 9, 10.

В разделе 11 указываются три основные причины завышенности сложностных оценок качества. Наиболее существенной из них представляется погрешность, неизбежно возникающая при оценивании качества через сложность. Она связана с самой структурой сложностных оценок и присуща как вероятностным, так и комбинаторным оценкам. Две другие причины завышенности удаётся устранить с помощью комбинаторного подхода.

Универсальные ограничения. Ввиду принципиальной завышенности слож-ностных оценок можно выдвинуть предположение, что получить приемлемые численные результаты возможно только путём явного привлечения априорной информации о восстанавливаемой зависимости. Основная идея этого направления состоит в том, что если метод обучения строит алгоритмы, в некотором смысле «согласованные» с имеющейся априорной информацией, то для такого метода может существовать оценка обобщающей способности, существенно лучшая, чем в общем случае.

Отметим, что соответствие обучающей выборки (локальной информации) и априорных ограничений (универсальной информации) подробно изучается в теории универсальных и локальных ограничений К. В. Рудакова [20, 23, 21, 22, 24, 9] с позиций теории категорий и алгебраического подхода к проблеме распознавания. Алгебраическая теория позволяет проверять непротиворечивость этих двух типов информации и конструктивно описывать неизбыточные классы моделей алгоритмов, допускающие построение корректных алгоритмов. Однако оценки обобщающей способности в данной теории не рассматриваются. Вообще, проблема влияния априорной информации на качество восстановления зависимости представляется наименее изученной. В настоящей работе получены два результата в этом направлении.

В разделе 12 рассматривается метод ближайшего соседа в сочетании с априорной информацией о компактности классов. Полученное выражение функционала качества является точным и не зависит от сложностных характеристик семейства, которое, как известно, имеет бесконечную ёмкость.

В разделе 13 рассматривается класс методов, строящих монотонные алгоритмы, в сочетании с априорной информацией о монотонности или почти-монотонности восстанавливаемой зависимости. Соответствующая оценка качества также не зависит от сложности семейства, которое также имеет бесконечную ёмкость. Она является существенно более точной на малых выборках, чем оценки, полученные ранее другими авторами [27, 82].

В разделе 14 перечисляются некоторые проблемы, остающиеся открытыми в комбинаторном подходе.

Дополнением к приведённому выше обзору является периодически пополняемая частично аннотированная библиографическая база MachLearn, размещённая по адресу www.ccas.ru/frc. Настоящая работа содержит все доказательства, опущенные в кратком сообщении [7].

Открытие проблемы

Получение оценок качества лишено смысла, если они не способствуют совершенствованию применяемых на практике алгоритмов.

Ожидается, что оценка (14) позволит обосновать критерии оптимизации метрик для методов типа ближайших соседей или потенциальных функций, основанных на анализе сходства объектов. В частности, представляется возможной разработка методов комбинирования некорректных эвристических метрик путём явной оптимизации профиля компактности.

Ожидается, что оценка (16) позволит обосновать проблемно-ориентированные методы монотонной коррекции [6]. Открытой проблемой остаётся теоретическое и/или эмпирическое сравнение монотонной и выпуклой коррекции (в частности, бу-стинга) с точки зрения их обобщающей способности.

Ограничения компактности и монотонности — далеко не единственные «разумные» виды априорной информации. Остаётся открытым вопрос о получении не-сложностных оценок при априорных ограничениях иного вида.

Пока не ясно, существуют ли нетривиальные оценки локальной функции роста для конкретных методов обучения. Различные методы, работающие в одном и том же семействе, могут порождать различные локальные подсемейства на различных классах задач. Отсюда вытекает целесообразность введения и исследования нового понятия — локализирующей способности метода обучения, как важной составляющей его обобщающей способности.

Возможен пересмотр не только теории равномерной сходимости, но и других техник, используемых для анализа качества обучения, с позиций комбинаторного (частотного) подхода. Теоретико-вероятностные предположения представляются избыточными не только в рассмотренном случае, но также при анализе стабильности, отступа и структуры алгоритмических композиций.

Важной проблемой представляется исследование границ применимости скользящего контроля на стадии построения алгоритма, в частности, при выборе наилучшего метода обучения из заданного конечного набора методов.

Автор выражает глубокую признательность академику РАН Ю. И. Журавлёву за оказываемую поддержку и своему Учителю чл.-корр. РАН К. В. Рудакову за постоянное внимание к работе и ценные замечания.

Работа выполнена в рамках программы Отделения математических наук РАН «Алгебраические и комбинаторные методы математической кибернетики», поддержана Российским фондом фундаментальных исследований (проекты № 02-01-00325, № 01-07-90242) и Фондом содействия отечественной науке.

Список литературы

Айзерман М. А., Браверман Э. М., Розоноэр Л. И. Метод потенциальных функций в теории обучения машин. — М.: Наука, 1970. — P. 320.
Вапник В. Н, Червоненкис А. Я. Теория распознавания образов. — М.: Наука, 1974.
Вапник В. Н. Восстановление зависимостей по эмпирическим данным. — М.: Наука, 1979.
Воронцов К. В. Качество восстановления зависимостей по эмпирическим данным // Математические методы распознавания образов: 7-ая Всерос. конф. Тезисы докл. — Пущино, 1995. — С. 24-26.
Воронцов К. В. О проблемно-ориентированной оптимизации базисов задач распознавания // ЖВМ и МФ. — 1998. — Т. 38, № 5. — С. 870-880. http://www.ccas.ru/frc/papers/voron98jvm.pdf.
Воронцов К. В. Оптимизационные методы линейной и монотонной коррекции в алгебраическом подходе к проблеме распознавания // ЖВМ и МФ. —2000. — Т. 40, № 1. — С. 166-176. http://www.ccas.ru/frc/papers/voron00jvm.pdf .
Воронцов К. В. Комбинаторные оценки качества обучения по прецедентам // Докл. РАН. — 2004. — Т. 394, № 2. — С. 175-178. http://www.ccas.ru/frc/papers/voron04qualdan.pdf.
Дюличева Ю. Ю. Оценка VCD r-редуцированного эмпирического леса // Таврический вестник информатики и математики. — 2003. — № 1. — С. 31-42.
Журавлёв Ю. И., Рудаков К. В. Об алгебраической коррекции процедур обработки (преобразования) информации // Проблемы прикладной математики и информатики. — 1987. — С. 187198. http://www.ccas.ru/frc/papers/zhurrud87correct.pdf.
Журавлёв Ю. И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. часть I // Кибернетика. — 1977. — № 4. — С. 5-17.
Журавлёв Ю. И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. часть II // Кибернетика. — 1977. — № 6. — С. 21-27.
Журавлёв Ю. И. Корректные алгебры над множествами некорректных (эвристических) алгоритмов. часть III // Кибернетика. — 1978. — № 2. — С. 35-43.
Журавлёв Ю. И. Об алгебраическом подходе к решению задач распознавания или классификации // Проблемы кибернетики. — 1978. — Т. 33. — С. 5-68.
Ивахненко А. Г., Юрачковский Ю. П. Моделирование сложных систем по экспериментальным данным. — М.: Радио и связь, 1987.
Матросов В. Л. Корректные алгебры ограниченной ёмкости над множествами некорректных алгоритмов // ДАН СССР. — 1980. — Т. 253, № 1. — С. 25-30.
Матросов В. Л. Ёмкость алгебраических расширений модели алгоритмов вычисления оценок // ЖВМиМФ. — 1984. — Т. 24, № 11. — С. 1719-1730.
Матросов В. Л. Ёмкость алгоритмических многочленов над множеством алгоритмов вычисления оценок // ЖВМиМФ. — 1985. — Т. 25, № 1. — С. 122-133.
Растригин Л. А., Эренштейн Р. Х. Коллективные правила распознавания. — М.: Энергия, 1981. — P. 244.
Рудаков К. В., Воронцов К. В. О методах оптимизации и монотонной коррекции в алгебраическом подходе к проблеме распознавания // Докл. РАН. — 1999. — Т. 367, № 3. — С. 314-317. http://www.ccas.ru/frc/papers/rudvoron99dan.pdf.
Рудаков К. В. О симметрических и функциональных ограничениях для алгоритмов классификации // ДАН СССР. — 1987. — Т. 297, № 1. — С. 43-46. http://www.ccas.ru/frc/papers/rudakov87dan.pdf.
Рудаков К. В. Полнота и универсальные ограничения в проблеме коррекции эвристических алгоритмов классификации // Кибернетика. — 1987. —№ 3. — С. 106-109.
Рудаков К. В. Симметрические и функциональные ограничения в проблеме коррекции эвристических алгоритмов классификации // Кибернетика. — 1987. —№ 4. — С. 73-77. http://www.ccas.ru/frc/papers/rudakov87symmetr.pdf.
Рудаков К. В. Универсальные и локальные ограничения в проблеме коррекции эвристических алгоритмов // Кибернетика. — 1987. — № 2. — С. 30-35. http://www.ccas.ru/frc/papers/rudakov87universal.pdf.
Рудаков К. В. О применении универсальных ограничений при исследовании алгоритмов классификации // Кибернетика. — 1988. — № 1. — С. 1-5. http://www.ccas.ru/frc/papers/rudakov88universal.pdf.
Рязанов В. В., Сенько О. В. О некоторых моделях голосования и методах их оптимизации // Распознавание, классификация, прогноз. — 1990. — Т. 3. — С. 106-145.
Сёмочкин А. Н. Линейные достроения частичного порядка на конечных множествах // Деп. в ВИНИТИ. — 1998. — № 2964-В98. — С. 19.
Сёмочкин А. Н. Оценки функционала качества для класса алгоритмов с универсальными ограничениями монотонности // Деп. в ВИНИТИ. — 1998. — № 2965-В98. — С. 20.
Эфрон Б. Нетрадиционные методы многомерного статистического анализа. — М: Финансы и статистика, 1988.
Anthony M, Bartlett P. L. Neural Network Learning: Theoretical Foundations. — Cambridge University Press, Cambridge, 1999.
Anthony M, Shawe-Taylor J. A result of Vapnik with applications // Discrete Applied Mathematics. — 1993.—Vol. 47, no. 2.—Pp. 207-217. http://citeseer.ist.psu.edu/anthony91result.html.
Anthony M. Uniform glivenko-cantelli theorems and concentration of measure in the mathematical modelling of learning: Tech. Rep. LSE-CDAM-2002-07: 2002. http://www.maths.lse.ac.uk/Personal/martin/mresearch.html .
Antos A., Kegl B, Linder T., Lugosi G. Data-dependent margin-based generalization bounds for classification // Journal of Machine Learning Research. — 2002. — Pp. 73-98. http://citeseer.ist.psu.edu/article/antos02datadependent.html.
Bartlett P. L., Long P. M, Williamson R. C. Fat-shattering and the learnability of real-valued functions // Journal of Computer and System Sciences. — 1996. — Vol. 52, no. 3. — Pp. 434-452. http://citeseer.ist.psu.edu/bartlett95fatshattering.html .
Bartlett P. L. For valid generalization the size of the weights is more important than the size of the network // Advances in Neural Information Processing Systems / Ed. by M. C. Mozer, M. I. Jordan, T. Petsche. — Vol. 9. — The MIT Press, 1997. — P. 134. http://citeseer.ist.psu.edu/bartlett97for.html .
Bartlett P. Lower bounds on the Vapnik-Chervonenkis dimension of multi-layer threshold networks // Proceedings of the Sixth Annual ACM Conference on Computational Learning Theory. — ACM Press, New York, NY, 1993. —Pp. 144-150. http://citeseer.ist.psu.edu/bartlett93lower.html .

Bartlett P. The sample complexity of pattern classification with neural networks: the size of the weights is more important than the size of the network // IEEE Transactions on Information Theory. — 1998. — Vol. 44, no. 2. —Pp. 525-536. http://discus.anu.edu.au/~bartlett.
Bontempi G., Birattari M. A bound on the cross-validation estimate for algorithm assessment // Eleventh Belgium/Netherlands Conference on Artificial Intelligence (BNAIC). — 1999. — Pp. 115122. http://citeseer.ist.psu.edu/225930.html.
Bottou L., Cortes C., Vapnik V. On the effective VC dimension. — 1994. http://citeseer.ist.psu.edu/bottou94effective.html.
Boucheron S., Lugosi G., Massart P. A sharp concentration inequality with applications // Random Structures and Algorithms. — 2000. — Vol. 16, no. 3. — Pp. 277–292. http://citeseer.ist.psu.edu/article/boucheron99sharp.html .
Boucheron S., Lugosi G., Massart P. Concentration inequalities using the entropy method // The Annals of Probability. — 2003. — Vol. 31, no. 3. http://citeseer.ist.psu.edu/boucheron02concentration.html.
Bousquet O., Elisseeff A. Algorithmic stability and generalization performance // Advances in Neural Information Processing Systems 13. — 2001.—Pp. 196–202. http://citeseer.ist.psu.edu/article/bousquet00algorithmic.html .
Bousquet O., Elisseeff A. Stability and generalization // Journal of Machine Learning Research. — 2002. — no. 2. — Pp. 499–526. http://citeseer.ist.psu.edu/article/bousquet00stability.html .
Breiman L. Bagging predictors // Machine Learning. — 1996. — Vol. 24, no. 2. — Pp. 123–140. http://citeseer.ist.psu.edu/breiman96bagging.html.
Breiman L. Bias, variance, and arcing classifiers: Tech. Rep. 460: Statistics Department, University of California, 1996. http://citeseer.ist.psu.edu/breiman96bias.html.
Breiman L. Arcing classifiers // The Annals of Statistics. — 1998. — Vol. 26, no. 3. — Pp. 801–849. http://citeseer.ist.psu.edu/breiman98arcing.html.
Burges C. J. C. A tutorial on support vector machines for pattern recognition // Data Mining and Knowledge Discovery. — 1998. — Vol. 2, no. 2. — Pp. 121–167. http://citeseer.ist.psu.edu/burges98tutorial.html.
Chernoff H. A measure of asymptotic efficiency for tests of a hypothesis based on the sum of observations // Annals of Math. Stat. — 1952. — Vol. 23. — Pp. 493–509.
Cortes C., Vapnik V. Support-vector networks // Machine Learning. — 1995. — Vol. 20, no. 3. — Pp. 273–297. http://citeseer.ist.psu.edu/cortes95supportvector.html.
Devroye L. P., Wagner T. J. Distribution-free inequalities for the deleted and holdout error estimates // IEEE Transactions on Information Theory. — 1979. — Vol. 25, no. 2. — Pp. 202–207.
Devroye L. P., Wagner T. J. Distribution-free performance bounds for potential function rules // IEEE Transactions on Information Theory. — 1979. — Vol. 25, no. 5. — Pp. 601–604.
Efron B. The Jackknife, the Bootstrap, and Other Resampling Plans. — SIAM, Philadelphia, 1982.
Evgeniou T., Pontil M., Elisseeff A. Leave one out error, stability, and generalization of voting combinations of classifiers: Tech. Rep. INSEAD 2001-21-TM: 2001. http://citeseer.ist.psu.edu/445768.html.
Freund Y., Schapire R. E. A decision-theoretic generalization of on-line learning and an application to boosting // European Conference on Computational Learning Theory. — 1995. — Pp. 23–37. http://citeseer.ist.psu.edu/article/freund95decisiontheoretic.html.
Freund Y., Schapire R. E. Experiments with a new boosting algorithm // International Conference on Machine Learning. — 1996. — Pp. 148–156. http://citeseer.ist.psu.edu/freund96experiments.html.
Freund Y., Schapire R. E. Discussion of the paper “Arcing classifiers” by Leo Breiman // The Annals of Statistics. — 1998. — Vol. 26, no. 3. — Pp. 824–832. http://citeseer.ist.psu.edu/freund97discussion.html.
Freund Y. Boosting a weak learning algorithm by majority // COLT: Proceedings of the Workshop on Computational Learning Theory. — Morgan Kaufmann Publishers, 1990. http://citeseer.ist.psu.edu/freund95boosting.html.
Freund Y. Self bounding learning algorithms // COLT: Proceedings of the Workshop on Computational Learning Theory, Morgan Kaufmann Publishers. — 1998. http://citeseer.ist.psu.edu/freund98self.html.
Golea M, Bartlett P., Lee W. S., Mason L. Generalization in decision trees and DNF: Does size matter? // Advances in Neural Information Processing Systems / Ed. by M. I. Jordan, M. J. Kearns, A. Solla. — Vol. 10. — The MIT Press, 1998. http://citeseer.ist.psu.edu/golea97generalization.html.
Holden S. B. Cross-validation and the pac learning model: Tech. Rep. RN/96/64: Dept. of CS, Univ. College, London, 1996.

Karpinski M., Macintyre A. Polynomial bounds for VC dimension of sigmoidal neural networks // 27th ACM Symp. Theory Comput. — 1995. — Pp. 200-208. http://citeseer.ist.psu.edu/karpinski95polynomial.html.
Kearns M. J., Mansour Y, Ng A. Y., Ron D. An experimental and theoretical comparison of model selection methods // Computational Learning Theory. — 1995. — Pp. 21-30. http://citeseer.ist.psu.edu/kearns95experimental.html.
Kearns M. J., Ron D. Algorithmic stability and sanity-check bounds for leave-one-out crossvalidation // Computational Learning Theory. — 1997. — Pp. 152-162. http://citeseer.ist.psu.edu/kearns97algorithmic.html.
Kearns M. J., Schapire R. E. Efficient distribution-free learning of probabilistic concepts // Computational Learning Theory and Natural Learning Systems, Volume I: Constraints and Prospect, edited by Stephen Jose Hanson, George A. Drastal, and Ronald L. Rivest, Bradford/MIT Press.— 1994.—Vol. 1. http://citeseer.ist.psu.edu/article/kearns93efficient.html.
Kearns M. A bound on the error of cross validation using the approximation and estimation rates, with consequences for the training-test split // Advances in Neural Information Processing Systems / Ed. by D. S. Touretzky, M. C. Mozer, M. E. Hasselmo. — Vol. 8. — The MIT Press, 1996. — Pp. 183189. http://citeseer.ist.psu.edu/kearns96bound.html.
Kohavi R. A study of cross-validation and bootstrap for accuracy estimation and model selection // IJCAI. — 1995. — Pp. 1137-1145. http://citeseer.ist.psu.edu/kohavi95study.html.
Kutin S., Niyogi P. Almost-everywhere algorithmic stability and generalization error: Tech. Rep. TR-2002-03: University of Chicago, 2002. http://citeseer.ist.psu.edu/kutin02almosteverywhere.html.
Langford J., Blum A. Microchoice bounds and self bounding learning algorithms // Computational Learing Theory. — 1999. — Pp. 209-214. http://citeseer.ist.psu.edu/langford01microchoice.html.
Lugosi G. On concentration-of-measure inequalities. — Machine Learning Summer School, Australian National University, Canberra. — 2003. http://citeseer.ist.psu.edu/lugosi98concentrationmeasure.html.
Mason L., Bartlett P., Baxter J. Direct optimization of margins improves generalization in combined classifiers: Tech. rep.: Deparment of Systems Engineering, Australian National University, 1998. http://citeseer.ist.psu.edu/mason98direct.html.
Mason L, Bartlett P., Golea M. Generalization error of combined classifiers: Tech. rep.: Department of Systems Engineering, Australian National University, 1997. http://citeseer.ist.psu.edu/mason97generalization.html.
Mazurov V., Khachai M., Rybin A. Committee constructions for solving problems of selection, diagnostics and prediction // Proceedings of the Steklov Institute of mathematics. — 2002. — Vol. 1. — Pp. 67-101. http://tom.imm.uran.ru/khachay/publications/mine/psis67.pdf.
McDiarmid C. On the method of bounded differences // In Surveys in Combinatorics, London Math. Soc. Lecture Notes Series. — 1989. — Vol. 141. — Pp. 148-188.
Mertens S., Engel A. Vapnik-Chervonenkis dimension of neural networks with binary weights // Phys. Rev. E. — 1997. — Vol. 55, no. 4.— Pp. 4478-4488.
Mullin M, Sukthankar R. Complete cross-validation for nearest neighbor classifiers // Proceedings of International Conference on Machine Learning. — 2000. http://citeseer.ist.psu.edu/309025.html.
Ng A. Y. Preventing overfitting of cross-validation data // Proc. 14th International Conference on Machine Learning. — Morgan Kaufmann, 1997. — Pp. 245-253. http://citeseer.ist.psu.edu/ng97preventing.html.
Quinlan J. Induction of decision trees // Machine Learning. — 1986. — Vol. 1, no. 1. — Pp. 81-106.
Rissanen J. Modeling by shortest data description // Automatica. — 1978. — Vol. 14. — Pp. 465-471.
Rogers W, Wagner T. A finite sample distribution-free performance bound for local discrimination rules // Annals of Statistics. — 1978. — Vol. 6, no. 3. — Pp. 506-514.
Schapire R. E, Freund Y, Lee W. S., Bartlett P. Boosting the margin: a new explanation for the effectiveness of voting methods // Annals of Statistics. — 1998. — Vol. 26, no. 5. — Pp. 1651-1686. http://citeseer.ist.psu.edu/article/schapire98boosting.html.
Schapire R. The boosting approach to machine learning: An overview // MSRI Workshop on Nonlinear Estimation and Classification, Berkeley, CA. — 2001. http://citeseer.ist.psu.edu/schapire02boosting.html.
Shawe-Taylor J., Bartlett P. L. Structural risk minimization over data-dependent hierarchies // IEEE Trans. on Information Theory. — 1998. — Vol. 44, no. 5.—Pp. 1926-1940. http://citeseer.ist.psu.edu/article/shawe-taylor98structural.html.
Sill J. The capacity of monotonic functions // Discrete Applied Mathematics (special issue on VC dimension). — 1998. — Vol. 86.—Pp. 95-107. http://citeseer.ist.psu.edu/49191.html.
Skurichina M, Kuncheva L, Duin R. Bagging and boosting for the nearest mean classifier: Effects of sample size on diversity and accuracy // Multiple Classifier Systems (Proc. Third International Workshop MCS, Cagliari, Italy) / Ed. by J. K. F. Roli. — Vol. 2364. — Springer, Berlin, 2002.— Pp. 62-71. http://citeseer.ist.psu.edu/539135.html.
Smola A., Bartlett P., Scholkopf B, Schuurmans D. Advances in large margin classifiers. — MIT Press, Cambridge, MA. — 2000. http://citeseer.ist.psu.edu/article/smola00advances.html.
Talagrand. M. Sharper bounds for gaussian and empirical processes // Annals of Probability. — 1994. — no. 22. —Pp. 28-76.
Talagrand M. Concentration of measure and isoperimetric inequalities in product space // Publ. Math. I.H.E.S. — 1995. —no. 81.—Pp. 73-205. http://citeseer.ist.psu.edu/talagrand95concentration.html.
Vapnik V., Levin E., Cun Y. L. Measuring the VC-dimension of a learning machine // Neural Computation. — 1994. — Vol. 6, no. 5. — Pp. 851-876. http://citeseer.ist.psu.edu/vapnik94measuring.html.
Vapnik V. Statistical Learning Theory. — Wiley, New York, 1998.
Vayatis N, Azencott R. Distribution-dependent Vapnik-Chervonenkis bounds // Lecture Notes in Computer Science. — 1999. — Vol. 1572. — Pp. 230-240. http://citeseer.ist.psu.edu/vayatis99distributiondependent.html.
Williamson R, Shawe-Taylor J., Scholkopf B., Smola A. Sample based generalization bounds: Tech. Rep. NeuroCOLT Technical Report NC-TR-99-055: 1999. http://citeseer.ist.psu.edu/williamson99sample.html.